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摘要 : ”加 权 极 限 学 习 机 对 不 同类 别 的 样本 赋予 不 同 的 权 值 ， 在 一 定 程度 上 提高 了 分 类 准确 
率 , 但 加 权 极 限 学 习 机 只 考虑 了 不 同类 别 样本 之 间 差 异 ， 忽 视 了 样本 噪声 和 同类 样本 之 间 的 
差异 。 本 文 提 出 了 一 种 基于 文本 类 别 信 息 炉 的 极限 学 习 机 集成 方法 ,该 方法 以 Adaboost. MI 
为 算法 框架 , 通过 文本 的 类 内 分 布 炉 和 类 间 分 布 米 生成 文本 类 别 信息 焙 ， 由 文本 类 别 信息 炉 
构造 代价 敏感 矩阵 ， 把 代价 敏感 极限 学 习 机 集成 到 Adaboost. MI 框架 中 。 实 验 结果 表明 ， 该 
方法 与 其 他 类 型 的 极限 学 习 机 相 比较 有 更 好 的 准确 性 和 泛 化 性 。 
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Abstract:The weight extreme learning machine improves the classification accuracy, 
which gives different weight to different samples, but the weight extreme learning 
machine only takes into account the differences between samples in the different 
categories and neglects the difference between samples in the same category and 
noise.In this paper, we propose a novel method about ensemble extreme learning 


machine based on text information entropy, which takes Adaboost.M1 as the algorithm 
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framework, generates text information entropy through the intra-class entropy and 
the inter-class distribution entropy of the text, constructs a cost sensitive 
matrix by using the text information entropy, integrates the cost sensitive 
ensemble extreme learning machine into the Adaboost.M1 framework. The experimental 
results show that the proposed method has better accuracy and generalization than 
other extreme learning machines. 
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1 引言 


文本 分 类 是 指 在 给 定 分 类 体系 下 ， 使 用 计算 机 自动 地 标记 文本 类 别 的 过 程 。 
文本 分 类 作为 文本 挖掘 的 关键 技术 之 一 , 广泛 应 用 于 信息 检索 、 搜 索引 擎 、 问 答 
系统 、 恤 情 分 析 、 情 感 分 析 等 领域 。 随 着 网 络 技术 的 高 速 发 展 ， 网 页 的 数量 成 几 
何 速 度 增 长 ， 高 效 而 个 性 化 的 信息 检索 需要 发 展 更 精确 更 有 效 的 文本 分 类 技术 。 
目前 比较 成 熟 的 文本 分 类 方法 有 : k 近邻 (k-nearest neighbor，K-NN) "?, jb 
素 贝 叶 斯 (Naive Bayes)”. Wt (Decision tree) ^, Jg Xil maximum entropy) 
59 支持 向 量 机 (support vector machine, SVM)2 7 、 神 经 网 络 Cneural networks) 
e EAE, 

Huang 等 人 提出 了 一 种 新 型 的 单 隐 层 前 馈 神经 网 络 一 极限 学 习 机 (ELM)™,， 
该 算法 输入 层 与 隐 含 层 之 间 的 连接 权 值 和 阅 值 均 随 机 产生 , 而 且 在 模型 训练 过 程 
中 无 需 对 参数 进行 调整 ， 只 需 对 隐 含 层 神经 元 个 数 进行 设置 ， 避 免 了 基于 梯度 
下 降 学 习 方法 的 许多 问题 , 如 陷入 局 部 极 小 、 收 敛 速度 慢 等 问题 ”， 和 传统 的 神 
经 网 络 相 比 ， ELM 具有 相同 的 全 局 逼近 能 力 准确 率 高 并 且 模 型 简单 。 与 其 他 传 
统 机 器 学 习 方 法 相 比 极限 学 习 机 也 具有 明显 的 优势 , 极限 学 习 机 具有 更 快 的 学 习 
速度 和 更 好 的 泛 化 性 能 。Ying Liu 等 人 对 ELM 和 SVM 在 文本 分 类 上 的 性 能 进行 
TX; Wenbin Zheng 等 人 使 用 潜在 语义 分 析 对 文本 进行 降 维 ， 将 正则 化 极 
限 学 习 机 CRELM) 、 神 经 网 络 和 SVM 对 文本 进行 分 类 比较 ，RELM 表现 出 更 快 的 
学 习 速 度 和 更 好 的 分 类 性 能 "“"， 此 后 Wenbin Zheng 等 人 又 提出 了 基于 非 负 矩阵 
分 解 的 线性 分 类 器 和 基于 ELM 分 类 器 想 结合 的 文本 快速 分 类 框架 ;Xiang guo 
Zhao 等 人 提出 了 一 个 基于 极限 学 习 机 的 XML 文档 分 类 框架 ， 在 该 框架 中 对 
voting-ELM 进行 了 改进 ， 成 功 地 将 REV 和 RCC 方法 应 用 于 v-ELM， 取 得 了 比 
voting-ELM 更 好 的 效果 "”"， 此 后 ，Xiang guo Zhao 继续 对 该 方法 进行 改进 ， 在 
RCC 方法 中 引入 e 参数 提升 重 投 的 精确 率 ， 对 ELM 的 投票 结果 进行 概率 统计 ， 从 
而 进一步 提升 了 分 类 效果 ""; Li juan Duan 采用 KELM 对 历史 专利 文献 进行 分 类 ， 
相对 SVM 取得 了 更 好 的 效果 ""， 于 海燕 等 人 通过 信息 增益 对 文本 特征 进行 降 维 ， 
引入 小 波 核 应 用 KELM 对 中 文 文本 进行 情感 分 类 "”"， 李 永 强 通过 优化 搜索 策略 ， 
提出 了 CPSO-ELM 算法 来 选择 单 隐 层 前 馈 神 经 网 络 中 隐藏 节点 的 输入 权重 和 偏 
置 ， 对 XML 文档 进行 分 类 ”; Rajendra Kumar Roul 等 人 研究 了 特征 提取 技术 对 
ELM 分 类 性 能 的 提升 ， 对 单一 ELM 和 多 层 ELM 在 文本 分 类 领域 做 了 大 量 的 实验 ， 
结果 超过 了 许多 state-of-the-art 的 方法 ， 包 括 SVM 方法 中 ， 此 后 ，Rajendra 
Kumar Roul 提出 了 一 种 基于 下 均值 聚 类 的 文本 分 类 特征 选择 算法 ,结合 Wordnet 
降低 文本 的 维度 ， 应 用 于 单一 ELM 和 多 层 ELM, 


然而 ，ELM AREFE EKDE, KAERDER BEDS ES 
FETAR, 由 于 其 输入 连接 权 值 和 隐 含 层 阔 值 为 随机 初始 化 ， 在 对 相 
同 训练 样本 及 检验 样本 下 多 次 执行 此 算法 时 的 结果 可 能 会 有 一 定 出 入 , 即 模型 稳 
定性 不 理想 。 集 成 学 习 相 比 单个 模型 可 以 有 效 的 提高 预测 性 能 。Adaboost 是 
一 种 重要 的 集成 学 习 技术 ， 能 够 将 预测 精度 仅 比 随机 猜 度 略 高 的 弱 学 习 器 增强 
为 预测 精度 高 的 强 学 习 器 。Yunliang Jiang 等 人 通过 PCA 对 人 脸 特 征 进 行 降 维 ， 
将 ELM RA Adaboost 框架 中 应 用 于 人 脸 识别 汪 。 黄 海 波 等 人 提出 基于 Adaboost 
的 ELM 算法 ,通过 小 波 包 分 解 对 减 振 器 异 响 特 征 信息 进行 提取 ， 对 减 振 器 异 响声 
db RET CU. Yan Xu 等 人 将 基于 Adaboost 的 BLM 方法 应 用 于 交通 标志 的 识别 
7", Kuan Li 等 人 提出 了 一 种 boosting 的 加 权 ELM 方 法， 将 加 权 ELM 无 颖 嵌入 
到 boosting HJ ELM 中 , 在 Adaboost 每 次 迭代 中 调整 样本 的 分 布 权 重 。 但 该 方法 
只 考虑 了 数据 集 的 类 间 不 平衡 ， 而 没有 考虑 类 内 的 不 平衡 ， 实 际 上 ， 类 内 的 不 
平衡 对 分 类 性 能 的 影响 也 很 大 。 

本 文 在 Adaboost. M1 的 框架 下 结合 代价 敏感 EM 提出 了 一 种 新 的 ELM 模 型 并 
将 其 应 用 到 文本 分 类 中 。 首 先 使 用 词 向 量 得 到 高 质量 低 维度 的 文本 特征 向 量 , 然 
后 用 文本 类 别 信息 焙 构 建 代 价 敏感 和 矩阵， 把 代价 敏感 加 权 ELM 作为 基 分 类 器 , 在 
多 分 类 Adaboost. M1 框架 中 通过 代价 敏感 因子 调整 样本 分 布 。 最 后 , 在 三 个 文本 
标准 数据 集 20newsgroups、Reuters52 和 Webkb 上 对 比 了 ELM. Voting-ELM. 
Adboost-WELM 以 及 本 文 提 出 的 Adaboost-WELM 框架 下 AEI-WELM. AE2W-ELM 和 
AE3W-ELM 三 种 方法 的 精度 和 泛 化 性 能 。 通 过 实验 验证 ，AE3-WELM 算法 相 比 其 他 
的 ELM 方法 有 着 更 为 显著 的 分 类 性 能 、 稳 定性 和 泛 化 性 。 


2 基于 Adaboost 的 加 权 极 限 学 习 机 


2.1 ”加权 极限 学 习 机 

加 权 极 限 学 习 机 (weight extreme learning machine) 是 在 ELM 的 基础 上 
引入 加 权 和 矩阵 W， 对 每 一 个 样本 进行 加 权 ， 减 少 样本 类 间 可 能 存在 的 不 平衡 性 ， 
从 而 提高 样本 总 体 的 识别 率 。 根 据 KKT 理论 有 : 


= 
(Erma) H'T,N2L 


B-H'T- 


(1) 


(Een ] > N«L 
其 中 W 为 对 角 和 矩阵 ， 对 角 线 上 的 每 一 个 元 素 为 样本 的 权重 值 。W. Zong 等 人 
经 验 地 给 出 了 两 种 加 权 方 案 “: 
1 


Fæ], W =— 

方案 1: W, H (2) 
0618. 4, > ava (#s) 

方案 2: W,- (3) 


=, #t, < AVG (#1,) 
但 加 权 极 限 学 习 机 只 是 简单 的 用 大 类 的 样本 数 和 小 类 的 样本 数 来 赋予 样本 


权 值 ， 对 少数 类 样本 赋予 更 大 的 权重 , 但 是 同类 样本 的 分 配 权重 是 相等 的 ， 这 样 
只 是 考虑 了 数据 集 的 类 间 不 平衡 ,而 没有 考虑 类 内 的 不 平衡 ,， 实际 上 ， 类 内 的 不 


平衡 对 分 类 性 能 的 影响 也 很 大 。Kuan Li 等 人 在 此 基础 上 进行 了 改进 ， 对 于 不 同 
类 样本 权 值 采 用 不 同 更 新 方式 ， 但 是 同样 没有 考虑 同类 样本 之 间 的 权 值 差异 六。 


2.2 基于 Adaboost 的 加 权 极 限 学 习 机 

AdaBoost 算法 基本 思想 是 将 若干 个 弱 分 类 器 按照 某 种 规则 组 合 起 来 ， 集 成 
为 一 个 分 类 能 力 很 强 的 强 分 类 器 。Freund 和 Schapire 改进 了 原本 用 于 二 分 类 问 
题 的 Adaboost， 生 成 Adaboost.M1、AdaboostM2 算法 用 于 多 分 类 问题 ， 同 时 给 
出 了 Adaboost.M1 的 扩展 形式 ， 本文 使 用 Adaboost.M1 算法 的 扩展 形式 P91, 然后 
将 1.1 中 的 加 权 极 限 学 习 机 艇 入 到 Adaboost.M1 框架 中 , 生成 基于 Adaboost 的 加 


权 极 限 学 习 机 算法 ， 算法 中 采用 (*) 表 示 第 ”个 弱 分 类 器 ， 通 过 弱 分 类 器 权 
Fa, 对 弱 分 类 器 进行 组 合 得 到 强 分 类 器 ， 算 法 的 主要 步 又 如 下 ; 

步骤 1 用 式 OO 初始 化 样本 权 值 ，Di(z) ME, i=1,2,,N y 

#4 表示 样本 所 在 类 i 所 含 样本 个 数 ， 

步骤 2 对 样本 权 值 归 一 化 DP,(%)= D (/ XL Di (x) s 


1ER 
步骤 3 
For m -1:M (M 为 弱 分 类 器 数量 ) 


(1) 用 弱 学 习 算法 训练 样本 得 到 弱 分 类 器 加 (x) ; 


~ 


Q) h, (x) 分 类 错误 率 


En = 3 a Ds Qu) I (hn (x) y) (4) 


(3) 当 分 类 器 分 类 错误 率 大 于 0 而 且 小 于 0.5 时 , 按照 式 (5) 更 新 样本 权 值 ， 
否则 退出 循环 ; 


D,a (x)= (5) 
Za AART Zo aP al (6) 
Q, = jos a dae (k-1) (7) 


m 


步骤 4 组 合 分 类 器 输出 为 : 


O(x)- arg max Ya (h, (x)- k) 
3 ”基于 代价 敏感 集成 极限 学 习 机 的 文本 分 类 方法 
3.1 基于 词 向 量 的 文档 向 量 生成 


数量 巨大 的 训练 样本 和 过 高 的 向 量 维度 是 文本 分 类 的 特点 。 过 高 维度 的 特征 
集会 增加 极限 学 习 机 的 计算 负担 。 传统 的 做 法 是 降低 文本 向 量 空 间 的 维 数 并 减少 


噪音 信息 对 文本 分 类 的 干扰 ,保证 文本 分 类 的 精度 。 词 向 量 文本 表示 比 传统 的 人 
工 提取 特征 向 量 的 方法 具有 更 好 的 特征 表达 效果 , 词 癌 量 通 过 训练 无 标注 语 料 将 
每 个 词 映 射 成 低 维 实数 向 量 B9, 通过 低 维 实数 向 量 之 间 的 距离 来 描述 词语 之 间 的 
语义 相似 度 ， 同 时 又 能 有 效 避 免 特征 向 量 的 维度 灾难 。Mikolov 等 人 提出 了 两 种 
词 向 量 学 习 模型 + CBOW (Continuous Bag of Words) 和 Skip-gram 模型 B1。 
Skip-gram 模型 以 当前 词 作为 对 数 线性 分 类 器 的 输入 ， 预 测 上 下 文中 的 词语 。 


给 定 词 序列 w = {wi,w,,… wy)’, N 为 序列 长 度 ， 在 skip-gram 的 NN 网 络 


m 


结构 中 ， 输 入 词 序列 中 的 第 ; 个 词 w% ， 使 用 当前 词 w 预测 窗口 大 小 为 2 的 上 下 
文 ， Skip-gram 模型 最 大 化 的 目标 函数 如 式 〈8) 所 示 : 

1 N 

xA. 2 logp(w, |w) (8) 


采用 softmax 函数 计算 Skip-gram 模型 定义 的 p(wi,j1w;) 如 式 (9) 所 示 : 


exp (c "o ) 
p(w; 1w;)= Xu (9) 
HP, 624 865 2) 23g wo; Aw, Bis] pl ce 


Skip-gram 模型 在 文本 相似 性 度量 和 文本 分 类 任务 上 都 有 较 好 的 表现 ， 本 文 
采用 的 词 向 量 模型 为 Skip-gram 模型 。 我 们 首先 产生 特征 词 的 词 向 量 


Eu = PoV v。) ， 表 mm 示 词 向 量 的 维度 , RIA y 表示 第 ;个 文档 中 第 /个 
单词 的 词 向 量 ， 通 过 式 C100 生成 文档 向 量 : 
Ji 
n=) D0, (10) 
ja 
其 中 表示 第 ;个 文档 中 单词 的 个 数 。 


3.2 类 别 信 息 灶 


通常 为 了 提高 文本 分 类 的 性 能 , 研究 人 员 主 要 从 两 个 方面 开展 研究 : 一 是 改 
善 分 类 算法 〈 或 学 习 模 型 ) ;二 是 改善 文本 数据 表示 模型 。 传 统 上 ， 我 们 通过 辐 
量 空 间 模型 〈vector space model, VSM) 来 表示 文本 B23， 就 是 在 分 类 之 前 把 每 个 
文本 文档 都 表示 成 由 一 定数 量 的 特征 词 的 权重 值 所 组 成 的 向 量 。 特征 词 在 不 同类 
别 的 文本 中 出 现 具有 一 定 的 不 确定 性 ， 这 种 不 确定 性 可 用 焙 (entropy〉 来 度量 。 
特征 词 的 权重 应 当 根 据 它 在 文本 分 类 中 的 重要 性 来 分 配 , 而 特征 词 的 重要 性 体现 
在 它 的 类 别 区 分 力 的 大 小 ， 因 为 类 别 区 分 力 大 的 词 有 助 于 区 分 不 同类 别 的 文本 。 
我 们 采用 香农 的 信息 炉 来 度量 特征 词 区 分 类 别 的 能 力 , 3 SURE E RI ES 2S TRI e s 


定义 1: 若 训 练 集 文本 有 m 个 类 别 ,特征 词 在 类 别 cj (j= 52. m) 的 文 
档 中 出 现 的 频率 为 Df; , 在 所 有 的 文档 中 出 现 的 频率 为 Df, 则 特征 词 # 的 类 间 
HARZ (Entropy with Difference 记 为 ED (t;) ) ， 定 义 为 : 


eb) [5] (11) 


AK, E(t) WEW n BIS TRU RES E ()- 7; 


T 
D 
SS 
Wd 
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Iw) 
S 
pM 


DF,- Y DF, , Vif EURIE PUR RECKAEGEERIAL, BEN] 1， 在 各 个 类 


j=1 


别 中 分 布 得 越 均匀 ，, AE Ea) 越 大 。 REW t dE Se AE rp 2) 0813 5], 


RHE E. (5) 越 小 。 当 且 仅 当 特 征 词 i 在 各 类 别 中 均匀 分 布 时, AR ES (6) 最 
大 。 所 以 ， 我 们 对 4 5) 取 倒数 ， 为 了 防止 分 母 为 零 ， 我 们 加 上 一 个 9 参数 。 


通过 实验 我 们 发 现 文档 的 类 间 分 布 焙 取 完 倒数 后 的 数值 V( 忆 (#)+0) 通 常 较 大 ， 


虽然 文档 之 间 的 类 间 信 息 业 差 异 很 大 , 可 以 起 到 刻画 文档 分 布 的 作用 , 但 是 淹没 
了 其 后 的 类 内 信息 烂 的 数值 ， 使 得 类 内 信息 焙 对 文档 分 布 的 作用 完全 不 能 显现 ， 


我 们 对 J/( 瓦 (6)+9) 取 对 数 ， 最 终 得 到 文本 的 类 间 信 息 焙 。 


定义 2: 若 训 练 集 文本 有 w 个 类 别 ， 特征 词 4 在 类 别 cj (j= 52. m) 的 第 


:个 文档 中 出 现 的 频率 为 TF (toda), ， 则 特征 词 的 类 内 信息 炉 函数 Entropy 
with Contribution， 记 为 EC (i;) ) ， 定 义 为 : 


EC (t, ) 2 Nc «;)) (12) 


E PEL. TF (td : PEN ES 
Hu eee) mL 各 | L), E (toe) DER t, 对 类 别 


TF (t,c,) 


c; KRKE SUR, 


c ,| 表示 <, 类 中 的 文本 数量 ，4 RRB e 类 中 第 上 个 文档 ; 
TF (tod ) 表示 特征 词 i 在 第 ,类 中 第 个 文档 4 出现 的 频率 ，7F (4,c,) K 
示 特 征 dE e; 类 文本 中 出 现 的 总 频率 。 对 于 类 别 c) (j=1,2,… ,m)， 我 们 取 


E (we) 中 的 最 大 值 作为 特征 词 i 的 类 内 信息 灶 。 


考虑 到 有 些 具有 较 高 类 别 区 分 能 力 的 特征 词 是 低频 词 , 而 低频 词 的 类 内 信息 
炳 比较 低 ， 甚 至 几乎 为 0， 如 果 直 接 用 必 gx(. (tc )) 作为 类 内 信息 炉 函 数 ， 


会 导致 该 特征 词 的 类 间 信 息 烂 和 类 内 信息 业 结 合 之 后 ， 得 到 错误 的 信息 度量 结 
果 ; 而 且 通 过 实验 我 们 发 现 加 上 作为 调节 因子 后 的 特征 信息 炉 函 数 比 直接 使 用 


M ax (E(t,c))) 的 特征 信息 业 函 数 有 更 好 更 显著 的 文本 区 分 能 力 。 结 合 特征 词 
OSS [RD eS I 48 BA FIS PAL 8s UA ES ET RO DI S SA ERU 
EDC(t,) - ED (t, )« EC (t,) (13) 


TET AK n e SURHEDBUN, WARE DX 2) 2G E HERB St, 对 文本 
分 类 而 言 ,该 特征 词 具 有 很 高 的 区 分 度 和 重要 度 , GEDCSUBE BE TRIS] 2 4e AS ARDSE AP 
仅 刻 画 了 不 同类 别 之 间 的 文本 分 布 , 同时 刻画 了 同一 类 别 内 部 的 文本 分 布 , 对 文 
本 的 描述 具有 比较 细 的 粒度 。 文 档 类 别 信息 炳 生成 算法 的 主要 步骤 如 下 : 


步骤 1 对 文本 集 D -(dodisssid,j 中 的 文本 di (1 < i < n) 进行 预 处 理 ; 
步骤 2 预 处 理 后 ， 文 本 集中 每 篇 文本 4 被 表示 成 特征 词 的 集合 
Le 
步骤 3 计算 训练 文档 中 每 个 特征 词 的 类 间 信 息 炳 
For i-1:|4,] CH ,| 为 4 文档 中 特征 词 的 数量 ) 
计算 文档 中 特征 词 4 的 DF, 值 和 DF 值 ; 
根据 式 〈12) 计算 文档 中 特征 词 二 的 ED (4) 值 ; 


步骤 4 计算 训练 文档 中 每 个 特征 词 的 类 内 信息 灶 
For 7 =1:m 


For t=1:l,| (le P TA 类 中 文档 的 数量 ) 


a 
Il 


VEROCRIPIBHER] t 的 TF (tod a) f, TF (tc; ) (EAE. (t0) fs 
根据 式 〈14) RNR RE t B E. (5) E; 
步骤 5 根据 式 C130 ， 计 算 文 档 中 特征 词 二 的 EDC (s) fü; 
步骤 6 对 DC (5) 值 归 一 化 
步骤 7 计算 文本 集中 每 个 文档 的 EDC 值 : EDC = > EDC (1,)。 
3.3 基于 代价 敏感 的 集成 极限 学 习 机 


加 权 极 限 学 习 机 和 Boosting 的 加 权 极 限 学 习 机 都 没有 考虑 同类 样本 之 间 的 
权 值 差异 , 为 了 进一步 提高 极限 学 习 机 的 分 类 性 能 , 我 们 将 代价 敏感 引入 到 极限 


学 习 机 中 ， 为 不 同 的 样本 赋予 不 同 的 权重 w (i= 1,2,… n) ， 我 们 用 文本 的 类 别 


fri RS SET SUSOBEEW = | ^ | ， 其 中 w, = EDC (x,) ， 代 价 敏感 


加 权 极 限 学 习 机 的 输出 参数 8 为 : B-(wH)wr. 


Adaboost.M1 算法 是 通过 对 训练 样本 的 自 适 应 采样 ， 调 整 样本 权重 来 调整 样 
本 分 布 , 对 于 错误 分 类 的 样本 分 配 更 大 的 权 值 ， 对 于 正确 分 类 的 样本 赋予 更 小 的 
权重 , 这 样 的 权重 分 配 是 从 错 分 率 上 体现 每 个 样本 的 重要 性 , 实际 上 同类 别 样 本 
集中 不 同样 本 之 间 的 重要 性 也 有 着 很 大 的 差异 。 我 们 利用 Adaboost.M1 TETIK 
代 中 权重 分 配 的 思想 ， 把 代价 敏感 因子 引入 Adaboost.MI HEF, 将 加 权 极 限 学 
习 机 无 颖 集成 到 代价 敏感 Adaboost.MI JER F « 3:4] 8 E CA I] 25591 EaR Z 
男 每 个 样本 对 于 类 别 区 分 的 重要 程度 , A Je BOSE SCA 290 f A DA T Lf hu 
因子 , 在 每 次 迭代 中 根据 每 个 样本 的 重要 性 来 更 新 样本 权重 。 根据 训练 样本 权重 
更 新 方法 的 不 同 ， 分 别 记 为 AEI-WELM. AE2-WELM 和 AE3-WELM， 本 文 将 
这 三 种 方法 统称 为 AEx-WELM 方法 ， 算 法 的 主要 步骤 为 ; 

步骤 1 对 训练 数据 集 和 测试 数据 集 进 行 预 处 理 ， 去 除 停 用 词 、 去 除 特 殊 符 


号 ， 文 本 集中 每 篇 文档 4 被 表示 成 特征 词 的 集合 4 = (stas sta] s 
步骤 2 利用 Word2vec 生成 特征 词 的 词 向 量 ; 
步骤 3 每 篇 文档 4 用 文档 向 量 ” = (7 ) 之 es RR: 


步骤 4 生成 代价 敏感 矩阵 = diag (EDC (x,)) Eo le. ; 
步骤 5 训练 权重 为 W, 的 加 权 ELM， 并 作为 弱 分 类 器 h(x) ; 


步骤 6 初始 化 训练 文档 权 值 分 布 Pi (x)= EDC (x), i=l, n 
7 For t=1:7 (T 为 弱 分 类 器 数量 ) 
(1) 计算 (x) 分 类 错误 率 ， 同 式 (4) ; 


D 当 分 类 器 分 类 错误 率 大 于 0 而 且 小 于 0.5 时 ， 按 照 式 (14) 
更 新 样本 权 值 ， 否 则 退出 循环 ; 


ata (14a) 
D,a (x,) =D, (x,)x1 EDC (x, )e” (14b) 
EDC (x, e? "^ (14c) 


D,(x,) 值 的 归 一 化 同 式 (6) , a, 值 同 式 (7) ; 
步骤 8 给 定 测试 样本 x ， 输 出 测试 样本 的 类 别 标签 
© (x) = arg maz > a,|h,(x)= k | 


AE2-WELM 和 AE3-WELM 算法 和 ACI-WELM 算法 基本 一 致 , 区 别 在 于 样 
本 权 值 的 更 新 上 。 用 式 (14a) 更 新 样本 权 值 的 为 AE1-WELM 算法 ， 用 式 (14b) 


更 新 样本 权 值 的 为 AE2-WELM 算法 , 用 式 (14c) 更 新 样本 权 值 的 为 AE3-WELM 
算法 。 


4 实验 


4.1 实验 数据 集 

我 们 将 所 有 的 模型 在 三 个 标准 文本 数据 集 上 进行 实验 。 由 Ken Lang 收集 的 
20 Newsgroups 数据 集 、 由 CMU 项 目 收集 的 webkb 数据 集 、 由 DavidD Lewis 发 
布 的 Reuters52 数据 集 " ， 第 一 个 是 平衡 数据 集 ， 后 两 个 是 非 平 衡 数据 集 。 
20Newsgroups 语料库 包含 20 个 不 同类 别 的 英文 新 闻 , 其 中 总 文档 数 为 18846 个 ， 
为 了 提高 实验 的 可 靠 性 , 所 有 的 重复 文件 被 删除 , 剩 下 11293 个 文档 被 用 作 训练 
数据 集 和 7528 个 文档 被 用 作 训 练 数据 集 。 原 始 WebKB 的 语料库 包含 约 8300 AR 
文 网 站 , 分 为 7 类 ,我们 选择 最 常用 的 4 大 类 , 包括 student, faculty, course 
和 project 4 个 文本 子 集 ， 共 有 4199 个 文档 。 同 样 ， 为 了 提高 实验 的 可 靠 性 ， 
重复 的 文件 被 删除 , 38] P. 2756 文档 被 用 作 训 练 数 据 集 和 1375 个 文档 被 用 作 测 试 
数据 集 。Reuters52 数据 集中 90 类 中 最 常 使 用 的 52 类 称 为 R52 数据 集 。R52 数 
据 集 总 共 9100 个 文档 ， 其 中 6532 个 文档 被 用 作 训 练 数据 集 ，2568 个 文档 被 用 
作 测 试 数据 集 。 我 们 对 数据 集 首先 进行 预 处 理 ， 包 括 : 删除 停 用 词 、 去 掉 单 个 字 
符 和 非 字 母 符 号 、 把 大 写字 母 转化 成 小 写字 母 、 词 干 还 原 、 去 除 低频 词 。 我 们 使 
用 google 提供 的 词 向 量 训练 工具 word2vec 进行 词 向 量 模型 训练 '。 


4.2 评价 指标 

精确 率 (Precision) 、 查 全 率 (Recall) 和 了 1 值 被 广泛 应 用 于 分 类 效果 评价 。 
微 平 均 和 宏 平均 是 两 种 对 分 类 结果 进行 全 局 评价 的 方法 : 微 平均 (Micro-average) 
是 先 计 算 所 有 文档 的 分 类 结果 , 然后 对 所 有 文档 求 平 均 ; 宏 平 均 (Macro-average ) 
是 先 计算 各 个 类 别 的 分 类 结果 ， 再 对 所 有 类 别 求 平均 。 有 具体 定义 如 下 : 


A 2x MicroP x M icroR 
HSJA M icroF1 = 
fmc 多 M icroP + MicroR , 


2x MacroP x MacroR 
MacroP + MacroR 


宏 平 均 M acroF]l = 


2 


m 


其 中 MicroP [X a) > b,; MicroR -(X 2 » d,; MicroP 和 
=1 =1 1 i=l 


t i i= 


MicroR 分 别 表示 微 平均 的 精确 率 和 查 全 率 ; MacroP 和 MacroR 分 别 表示 
宏 平 均 的 精确 紊 和 查 全 率 ; b 是 测试 集中 < 类 的 文档 数 ; a; 是 其 中 被 正确 判断 
为 c; 类 的 文档 数 ，4d, 是 属于 <; 类 的 文档 数 。 微 平均 倾 辐 于 大 类 ， 宏 平均 倾向 于 
小 类 。 为 了 对 分 类 的 整体 性 能 有 一 个 上 度量， 本 文采 用 F1 的 微 平 均 MicroF1 和 
宏 平均 MacroF1 、 训 练 时 间 (Training time) 和 测试 时 间 (Testing Time) 对 分 类 结果 
进行 评价 。 


http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo20/www/data/news20.html 
http://web.ist.ult.pt/-acardoso 
https://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html 
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https://code.google.com/p/word2ve 
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验 结 果 分 析 


(1) 参数 设置 
所 有 实验 均 运 行 


数 ， 通 过 对 以 上 激活 函数 性 能 的 比较 ， 我 们 选取 
函数 : 极限 学 习 机 的 超 参 数 c 和 工 采 用 网 格 搜索 法 
为 c 值 的 搜索 范围 ，L 的 搜索 范 


能 比较 


K f eu 


(2) 性 


^ 


在 2.4AGHZCPU 和 4G 内 存 环境 下 。ELM 相关 算法 由 python 
语言 实现 ， 每 个 实验 运行 10 次 ， 取 平均 值 作为 结果 。 文 本 输入 维 数 在 50 维 到 
500 维 之 间 进 行 取 值 。 极 限 学 习 机 的 激活 函数 通常 有 : Sigmoid、RBF 和 tanh FR 


tanh 函数 作为 隐藏 节点 的 激活 
进行 选取 , (10*,107 10 } 
FE (100,200,...10001. 


E AEx-WELM 的 性 能 ， 我 们 把 AEx-WELM 和 ELM. Voting-ELM 


和 Adaboost-WELM 在 三 个 标准 数据 集 上 做 了 比较 。 为 了 检测 这 些 方法 在 文本 维 
数 变化 情况 下 的 性 能 ,我 们 选取 了 不 同 的 文本 维 数 ， 将 微 平均 mfl 、 宏 平均 
| 练 时 间 和 测试 时 间 的 变化 情况 作 比 较 ， 具 体 结果 见 表 1-3， 表 中 数据 均 


MF1、 Y 


dim 


50 


100 


200 


300 


400 


Evaluation 


measures 


mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 


表 1 在 20newsgroups 上 分 类 性 能 对 比 


ELM 


0.756 
0.743 


5.744 


1.336 


0.773 
0.759 


6.639 


1.373 


0.784 


0.770 


5.931 


1.396 


0.785 


0.771 


6.037 


1.446 
0.788 


Voting-E 
LM 


0.768 
0.754 


114.608 


27.125 


0.786 
0.772 


140.346 
28.121 
0.800 
0.786 
119.746 
28.462 
0.802 
0.787 


122.124 


29.383 
0.805 


Adaboo 
st-WEL 
M 
0.747 
0.741 


243.455 


31.078 


0.771 
0.764 


244.671 


31.702 


0.792 


0.783 


247.969 


33.048 


0.791 


0.782 


306.810 


35.506 
0.795 


AE1-WE 
LM 


0.772 
0.764 


242.735 


31.750 


0.790 
0.781 


244.628 


31.626 


0.804 


0.794 


248.189 


32.989 


0.804 


0.795 


328.235 


35.652 
0.809 


AE2-WE 
LM 


0.749 
0.749 


261.990 


31.416 


0.771 
0.763 


244.818 


31.687 


0.791 


0.783 


248.280 


33.051 


0.792 


0.784 


322.786 


35.759 
0.780 


AE3-WE 
LM 


0.773 
0.764 


262.045 


31.368 


0.791 
0.782 


244.773 


31.639 


0.806 


0.796 


248.606 


32.977 


0.805 


0.796 


303.106 


35.705 
0.808 


500 


dim 


50 


100 


200 


300 


400 


MF1 
Training 
time(s) 
Testing 
time(s) 

mf1 

MF1 
Training 
time(s) 
Testing 
time(s) 


Evaluation 


measures 


mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 


Training 


0.774 


6.122 


1.506 


0.786 


0.773 


7.790 


1.631 


K2 在 Reuters52 上 分 类 怕 


ELM 


0.917 
0.607 


4.828 


0.354 
0.918 


0.602 


4.842 


0.366 
0.922 
0.621 


4.880 


0.390 
0.923 
0.618 


4.990 


0.410 
0.922 
0.617 
5.002 


0.790 


123.236 


30.449 
0.805 


0.790 


157.031 


33.289 


Voting-E 


LM 


0.919 
0.614 


96.317 


7.240 
0.923 


0.615 


102.547 


7.900 
0.925 
0.616 


98.303 


7.850 
0.925 
0.626 


100.000 


8.138 

0.926 

0.618 
101.698 


0.786 


254.772 


35.167 


0.797 


0.788 


324.748 


37.824 


Adaboo 
st-WEL 
M 
0.920 
0.644 


110.873 


8.597 
0.927 


0.661 


111.240 


9.187 
0.925 
0.650 


114.353 


9.710 
0.926 
0.656 


112.283 


9.578 

0.925 

0.659 
118.338 


0.800 


255.044 


35.082 


0.808 


0.799 


311.323 


38.742 


E Beo] EG 


AE1-WE 
LM 


0.931 
0.661 


110.953 


8.580 
0.938 


0.684 


111.207 


9.127 
0.938 
0.682 


114.343 


9.673 
0.938 
0.674 


112.460 


9.578 

0.939 

0.685 
118.345 


0.772 


254.767 


35.241 
0.795 


0.786 


313.438 


38.265 


AE2-WE 
LM 


0.920 
0.620 


111.173 


8.593 
0.925 


0.666 


111.303 


9.023 
0.926 
0.661 


114.290 


9.695 
0.926 
0.662 


112.573 


9.583 

0.927 

0.653 
118.425 


0.799 


254.918 


35.090 
0.809 


0.800 


307.131 


38.377 


AE3-WE 
LM 


0.929 
0.660 


111.093 


8.590 
0.936 


0.671 


111.207 


9.127 
0.937 
0.679 


114.360 


9.660 
0.936 
0.678 


112.683 


9.560 

0.939 

0.680 
118.410 


500 


dim 


50 


100 


200 


300 


400 


time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 


Evaluation 


measures 


mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 
Testing 
time(s) 
mf1 
MF1 
Training 
time(s) 


Testing 


0.422 
0.923 


0.621 


5.190 


0.438 


ELM 


0.850 


0.834 


2.078 


0.276 


0.863 


0.850 


2.084 


0.281 
0.866 
0.853 


2.129 


0.288 


0.866 


0.854 


2.165 


0.322 


0.865 


0.851 


2.211 
0.306 


8.498 
0.925 


0.625 


102.505 


8.883 


Voting-E 
LM 


0.873 
0.860 


41.602 


5.616 
0.888 
0.876 


41.696 


5.684 
0.896 
0.884 


42.614 
5.877 
0.897 
0.886 

43.321 
6.482 
0.893 


0.882 


44.316 
6.190 


10.530 
0.928 


0.666 


118.398 


10.423 


表 3 在 Webkb 上 分 类 性 和 


Adaboo 
st-WEL 
M 
0.864 
0.850 


69.995 


6.935 


0.881 


0.867 


70.215 


7.041 
0.883 
0.869 


71.397 


7.188 


0.884 


0.871 


72.933 


7.777 


0.884 


0.871 


73.760 
7.477 


10.483 


0.937 


0.682 


118.355 


10.400 


0.876 
0.865 


70.121 


6.896 


0.886 


0.879 


70.387 


6.954 
0.892 
0.884 


71.572 


7.149 


0.893 


0.884 


73.062 


7.726 


0.893 


0.883 


73.795 
7.449 


10.473 
0.926 


0.665 


118.428 


10.423 


AE2-WE 
LM 


0.867 
0.851 


70.059 


70.059 


0.877 


0.863 


70.376 


7.003 
0.881 
0.867 


71.467 


7.173 


0.884 


0.871 


73.008 


7.744 


0.880 


0.865 


73.799 
7.505 


10.513 
0.937 


0.679 


118.575 


10.418 


AE3-WE 
LM 


0.874 
0.857 


70.237 


6.890 


0.885 


0.874 


70.409 


6.951 
0.894 
0.885 


71.638 


7.152 


0.893 


0.885 


73.153 


7.726 


0.893 


0.883 


74.188 
7.445 


time(s) 


mf1 0.868 0.894 0.882 0.890 0.881 0.892 
MF1 0.853 0.881 0.882 0.880 0.867 0.882 
500 Training 
time(s) 2.279 45.458 74.773 74.970 74.876 75.059 
Testing 
time(s) 0.314 6.399 7.669 7.629 7.663 7.626 


是 各 个 方法 在 最 佳 COL 取 值 下 的 最 优 性 能 值 。 从 表 1-3 中 可 以 看 出 ， 在 所 有 
测试 中 ELM 表现 都 是 最 差 的 。 在 三 个 标准 数据 集 上 , AEI-WELM 和 AE3-WELM 
的 MFI 值 高 于 其 他 所 有 ELM 方法 ; 在 20newsgroups 数据 集 和 Reuters52 数据 集 
E, AEI-WELM 和 AE3-WELM 的 mfl 值 明显 高 于 其 他 ELM 方法 , 比 其 他 所 有 
的 ELM 方法 有 更 好 的 性 能 , 说 明 把 代价 敏感 极限 学 习 机 结合 到 Adaboost 框架 中 
是 有 效 的 ,在 非 平衡 数据 集 Reuters5252 和 WEbkb E, AE1-WELM 和 AE3-WELM 
的 性 能 明显 高 于 ELM, Adaboost-WELM 和 AE2-WELM， 说 明文 本 提出 的 方法 
可 以 改善 不 平衡 多 类 分 类 问题 的 分 类 效果 ; 同时 在 平衡 数据 集 20newsgroups E, 
AEI-WELM 和 AE3-WELM 性 能 提升 就 更 为 明显 ,超过 了 其 他 所 有 的 ELM 方法 ; 
而 且 在 三 个 文本 标准 数据 集 上 ，AE1-WELM 和 AE3-WELM 都 表现 稳定 ， 说 明 
这 两 种 方法 很 好 的 泛 化 性 能 。 在 AEx-WELM 三 种 方法 中 ，AE2-WELM 表现 最 
差 ， 几 乎 和 Adaboost-WELM 的 性 能 差不多 ，AE2-WELM 分 布 权重 在 迭代 过 程 
中 变化 剧烈 ， 这 可 能 导致 AE2-WELM 分 类 效果 没有 另外 两 种 好 的 原因 。 
AEI-WELM 和 AE3-WELM 两 者 之 间 相 比 ， 后 者 随 着 文本 维 数 的 增加 展现 出 更 
优 的 分 类 性 能 和 稳定 性 ， 所 以 AE3-WELM 是 文本 推荐 的 方法 。 
AEx-WELM 和 ELM 相 比 : 从 图 1-3 中 可 以 看 到 ， 对 于 所 有 的 数据 集 ， 将 极 
[IR ^ 2] BLEXN. Adaboost 框架 中 的 四 种 方法 Adaboost-WELM、AE1-WELM、 
AE2-WELM、AE3-WELM 都 比 ELM 方法 在 分 类 性 能 上 有 显著 提高 ， 其 中 AEI 
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图 1 20newsgroups 数据 集 上 的 分 类 性 能 
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图 2 Reuters52 数据 集 上 的 分 类 性 能 
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图 3 Webkb 数据 集 上 的 分 类 性 能 


-WELM 和 AE3-WELM 有 着 更 为 明显 的 优势 。 在 三 个 标准 数据 集中 ,AE1-WELM 
fll AE3-WELM 的 综合 指标 MF1 值 都 超过 了 ELM 和 其 他 类 型 的 ELM 的 MF1 值 ， 
尤其 在 20newsgroups〔 平 衡 数 据 集 ) 和 Reuters52〔( 非 平衡 数据 集 ) 上 的 MFI fü 
比 起 其 他 所 有 的 ELM 方法 有 着 更 为 明显 的 提高 ; 在 Webkb 数据 集 上 ( 非 平 衡 数 
HR) 上 的 mfl 值 要 略 低 于 Voting-ELM， 但 是 MF1 值 仍然 高 于 Voting-ELM 方 
法 。 

AEx-WELM 和 Voting-ELM 比 : 从 图 1-3 中 可 以 看 到 ， 在 平衡 数据 集 
20newsgroups 上 AEI-ELM 和 AE3-WELM 比 Voting-ELm 要 略微 高 一 点 ， 在 非 
平衡 数 集 Reuters52 上 Voting-ELM 效果 要 比 AE1-ELM 和 AE3-WELM 差 很 多 。 
但 是 在 非 平衡 数据 集 Webkb E, Voting-ELM 却 取得 了 比 其 他 所 有 ELM 都 更 好 
的 效果 ， 这 是 由 于 Webkb 数据 集 较 小 ， 而 且 我 们 实验 中 只 取 了 Webkb 常用 的 4 


类 , 类 的 数目 也 较 小 , 而 mfl 值 是 倾向 于 大 类 的 , 所 以 AE1-ELM 和 AE3-WELM 
的 mfl 值 会 比 Voting-ELM 略 低 ， 当 然 这 也 和 Voting-ELM 方法 中 我 们 采用 的 随 
机 采样 算法 将 数据 集中 文本 特征 的 多 样 性 充分 发 挥 出 来 有 一 定 的 关系 , 所 以 在 三 
个 文本 数据 集中 Voting-ELM 都 表现 出 了 不 错 的 性 能 ; 尽管 如 此 在 Webkb 数据 集 
上 ，AE1-ELM 和 AE3-WELM 的 MF1 值 还 是 略微 比 Voting-ELM 高 出 一 点 ; 而 
且 到 了 像 20newsgroups 和 Reuters52 这 类 文本 数量 要 远 远 多 于 WEbkb 的 数据 集 
中 ，Voting-ELM 的 性 能 就 明显 下 降 , 不 能 取得 像 AE1-ELM 和 AE3-WELM 同样 
显著 的 分 类 效果 。 
基于 词 向 量 的 文本 信息 表达 也 一 定 程度 上 丰富 了 文本 的 特征 表示 , 不 仅 有 效 
降低 了 文本 维度 ， 而 且 在 低 维 空间 上 (通常 100 维 ) 就 已 经 可 以 取得 传统 文本 
VSM 特征 表达 在 1000 维 〈 甚 至 更 高 维度 ) 上 的 分 类 性 能 ， 同 时 我 们 从 图 1-3 中 
也 观察 到 ，56 种 的 ELM 方法 在 文本 维 数 超过 400 维 之 后 性 能 都 呈现 下 降 趋 势 ， 
这 说 明 过 高 的 维 数 不 仅 给 极限 学 习 机 造成 了 负担 而 且 增加 了 噪音 , 而 且 影响 了 分 
类 性 能 。 
图 4-6 显示 在 三 个 文本 标准 数据 集 上 ， 当 文本 向 量 为 300 维 时 ， 随 着 隐 节 点 
fll 值 变化 的 AE3-WELM 算法 mfl 值 的 变化 。 从 图 中 我 们 可 以 观察 到 ， 虽 然 较 
多 的 隐藏 节点 能 够 帮助 AE3-WELM 取得 更 好 的 分 类 结果 , 但 是 当 隐 藏 节点 数 起 
过 400 以 后 其 mfl 值 较为 稳定 ， 过 大 的 隐藏 节点 数 起 不 到 什么 太 大 影响 。 当 隐 
藏 节点 达到 一 定 程度 后 , 分 类 性 能 会 变 得 不 稳定 ,超过 800 以 后 分 类 性 能 会 性 能 
随 着 隐藏 节点 的 增加 而 下 降 ， 这 种 情况 应 该 是 由 于 过 拟 合 造成 的 。 从 图 4-6 中 可 
以 看 出 ， 正 则 化 参数 c 是 一 个 很 关键 的 因素 ,性 能 随 着 c 值 的 减少 达到 一 个 稳定 


值 。 正 则 化 参数 c 对 性 能 的 影响 要 大 于 隐藏 结 点 ， 当 c 值 较 小 时 接近 10 ”时 ， 
AE3-WELM 对 于 隐藏 节点 参数 的 选取 并 不 敏感 。 


4 随 着 隐 节 点 和 c 值 变化 的 AE3-WELM 
mfl 值 的 变化 〈20newsgroups 数据 集 ) 


5 随 着 隐 节 点 和 c 值 变化 的 AE3-WELM 
mfl 值 的 变化 CReuters52 数据 集 ) 


图 7-9 显示 了 三 个 文本 标准 数据 集 上 ， 当 文本 向 量 为 300 维 时 ，6 种 ELM 
方法 随 着 文本 向 量 维度 的 变化 模型 训练 时 间 的 变化 。 因 为 Voting-ELM 需要 集成 
多 个 子 分 类 器 , 而 Adaboost-WELM 和 AEx-WELM 方法 都 需要 经 过 较 多 的 迭代 ， 
所 以 它们 的 训练 时 间 消 耗 要 比 ELM 长 很 多 。AEx-WELM 和 Adaboost-WELM 的 
训练 时 间 要 比 ELM 长 很 多 ， 比 Voting-ELM 也 要 长 出 一 些 。 但 是 我 们 更 观察 到 


图 6 随 着 隐 节 点 和 c 值 变化 的 AES-WELM 


mfi 值 的 变化 (Webkb 数据 集 ) 


这 样 的 细节 : Voting-ELM 的 训练 时 间 是 ELM 的 倍数 ， 这 个 倍数 取 雇 于 
Voting-ELM 当中 使 用 的 集成 分 类 器 数量 ， 所 以 这 个 训练 时 间 的 增加 是 线性 的 ; 

AEx-WELM 和 Adaboost-WELM 虽然 训练 时 间 比 ELM 用 时 长 很 多 ,训练 时 间 的 
增长 规模 是 和 Adaboost 迭代 次 数 相 关 的 ， 但 是 我 们 发 现 这 个 迭代 次 数 并 不 是 随 
着 文本 向 量 维度 和 隐藏 节点 增加 而 线性 增加 的 , 也 就 是 说 训练 时 间 的 增加 从 总 体 
上 看 是 低 于 线性 增长 的 , 所 以 在 Reuters52 数据 集中 会 产生 基于 Adaboost 的 4 种 
ELM 方法 和 Voting-ELM 随 着 文本 癌 量 维度 的 增加 越 来 越 接 近 的 现象 。 在 
AEx-WELM 的 3 种 方法 AEI-WELM. AE2-WELM. AE3-WELM 中 ， 在 训练 时 
间 和 测试 时 间 上 基本 一 致 ， 没 有 太 大 的 差别 ， 没 有 任何 一 种 方法 有 明显 的 优势 。 
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图 7 20newsgroups 数据 集 上 的 训练 时 间 对 比 


T 
110+ | —e— ELE 

—*— Voting-ELM 

一 6 一 Adaboost-WELM 


L| 一 一 AE3-WELM 


training time(s) 


l L 
100 200 300 400 500 600 700 800 
Number of nodes on Reuters 


图 8 Reuters52 数据 集 上 的 训练 时 间 对 比 
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9 Webkb 数据 集 上 的 训练 时 间 对 比 


5 结论 


传统 的 VSM 文本 表达 产生 高 维 而 稀 玻 的 文本 特征 给 极限 学 习 机 的 计算 增加 
了 负担 ， 本文 针对 这 个 问题 将 词 向 量 模型 作为 文本 表达 方法 。 本 文通 过 文本 类 别 
FLAG EEEAIS EIS 38 EE PEE ST BE, 并 且 从 样本 重要 性 角度 生成 代价 敏感 矩阵 和 代 
价 敏感 因子 , 通过 把 代价 敏感 极限 学 习 机 集成 到 Adaboost.M1 框架 中 以 期 提高 文 
本 分 类 性 能 。 实 验 表 明 : 在 非 平衡 数据 集 和 平衡 数据 集 ，AE1-WELM 的 
AE3-WELM 综合 分 类 性 能 指标 均 优 于 其 他 类 型 的 极限 学 习 机 , 其 中 AE3-WELM 
的 整体 性 能 优 于 AE1-WELM。 在 将 来 的 工作 中 ， 将 研究 如 何在 词 向 量 的 基础 上 
进一步 降低 文本 特征 维度 ， 选 取 更 为 合理 的 代价 敏感 函数 来 进一步 减少 
AEx-WELM 的 计算 花 销 以 及 如 何 进一步 优化 AEx-WELM 框架 ， 以 获得 更 好 的 
文本 分 类 性 能 。 


参考 文献 : 

[1] Samworth R J. Optimal weighted nearest neighbour classifiers[J]. The Annals of Statistics, 

2012, 40(5): 2733-2763. 

[2] Zhang H, Berg A C, Maire M, et al. SVM-KNN: Discriminative nearest neighbor classification 
for visual category recognition[C]. Computer Vision and Pattern Recognition, 2006 IEEE Computer 
Society Conference on, 2006: 2126-2136. 

[3] Chen J, Huang H, Tian S, et al. Feature selection for text classification with Naïve Bayes[J]. 

Expert Systems with Applications, 2009, 36(3): 5432-5435. 

[4] Takahashi F, Abe S. Decision-tree-based multiclass support vector machines[C]. Neural 
Information Processing, 2002. ICONIP'02. Proceedings of the 9th International Conference on, 2002: 
1418-1422. 


201809.00191v1 


chinaXiv 


[5] Liu W, Song N. A fuzzy approach to classification of text documents[J]. Journal of Computer 
Science and Technology, 2003, 18(5): 640-647. 

[6] Widyantoro D H, Yen J. A fuzzy similarity approach in text classification task[C]. Fuzzy 
Systems, 2000. FUZZ IEEE 2000. The Ninth IEEE International Conference on, 2000: 653-658. 

[7] Chang C-C, Lin C-J. LIBSVM: a library for support vector machines[J]. ACM transactions on 
intelligent systems and technology (TIST), 2011, 2(3): 27. 

[8] Ghiassi M, Olschimke M, Moon B, et al. Automated text classification using a dynamic artificial 


neural network model[]]. Expert Systems with Applications, 2012, 39(12): 10967-10976. 


[9] Lam H-K, Ekong U, Liu H, et al. A study of neural-network-based classifiers for material 
classification[]]. Neurocomputing, 2014, 144: 367-377. 

[10] Bigi B. Using Kullback-Leibler distance for text categorization[C]. European Conference on 
Information Retrieval, 2003: 305-319. 

[11] Huang 6-B, Zhu Q-Y, Siew C-K. Extreme learning machine: theory and applications[]J]. 
Neurocomputing, 2006, 70(1): 489-501. 

[12] Qin A K, Huang V L, Suganthan P N. Differential evolution algorithm with strategy adaptation 


for global numerical optimization[]]. IEEE transactions on Evolutionary Computation, 2009, 13(2): 
398-417. 

[13] Liu Y, Loh H, Tor S. Comparison of extreme learning machine with support vector machine for 
text classification[]]. Innovations in Applied Artificial Intelligence, 2005: 390-399. 

[14] Zheng W, Qian Y, Lu H. Text categorization based on regularization extreme learning machine[]J]. 
Neural Computing and Applications, 2013, 22(3-4): 447-456. 

[15] Zheng W, Tang H, Qian Y. Collaborative work with linear classifier and extreme learning 
machine for fast text categorization[J]. World Wide Web, 2015, 18(2): 235-252. 

[16] Zhao X-G, Wang G, Bi X, et al. XML document classification based on ELM[J]. Neurocomputing, 
2011, 74(16): 2444-2451. 

[17] Zhao X, Bi X, Qiao B. Probability based voting extreme learning machine for multiclass XML 


documents classification[J]. World Wide Web, 2014, 17(5): 1217-1231. 


[18] Duan L, Yuan B, Wu C, et al.: Text-image separation and indexing in historic patent document 
image based on extreme learning machine, Proceedings of ELM-2014 Volume 2: Springer, 2015: 
299-307. 

[19] YuH, Chen L, Zheng W. Chinese text sentiment classification based on kernel extreme learning 
machines[J]. Journal of China University of Metrology, 2016, 2: 020. 

[20] 李 永 强 .基于 粒子 群 优化 的 极限 学 习 机 的 XML 文档 分 类 中 的 研究 与 应 用 [D]. 东北 大 学 ，2013. 


Li Yongqiang, Research and Application of XML Classification Based on Extreme learning Mchine 


with Particle Swarm Optimization[D]. Northeastern University, 2013 

[21] Roul R K, Nanda A, Patel V, et al. Extreme learning machines in the field of text 
classification[C]. Software | Engineering, Artificial | Intelligence, Networking and 
Parallel/Distributed Computing (SNPD), 2015 16th IEEE/ACIS International Conference on, 2015: 
1-7. 

[22] Roul RK, Sahay S K. K-means and Wordnet Based Feature Selection Combined with Extreme Learning 
Machines for Text Classification[C]. International Conference on Distributed Computing and 
Internet Technology, 2016: 103-112. 
[23] ME, ZER, BF, 等 ， 基 于 输出 不 一 致 测度 的 极限 学 习 机 集成 的 基因 表达 数据 分 类 [JJ， 计 
算 机 学 报 ，2013， (2): 341-348. 


N 


201809.00191v1 


chinaXiv 


LU Hui-Juan, An Chun-Lin, Ma Xiao-Ping, et al. Disagreement measure Based Ensemble of Extreme 
learning Machine for Gene Expression Data Classification[]]. Chinanese Journal of Computers. 2013, 
(2): 341-348. 

[24] Ditterrich T. Machine learning research: four current direction[]]. Artificial Intelligence 
Magzine, 1997, 4: 97-136. 

[25] Jiang Y, Shen Y, Liu Y, et al. Multiclass AdaBoost ELM and its application in LBP based face 
recognition[J]. Mathematical Problems in Engineering, 2015, 2015. 

[26] I, JF AGE, REESE, 55. TEN ELM-Adaboost 的 悬 架 减 振 器 异 响声 品质 预测 [JJ， 振 
动 与 冲击 ，2016， (13) : 125-133. 


HUANG Hai-bo, LI Ren-xian, HUANG Xiao-rong, et al. Prediction of a suspension shock absorber! s sound 
metric based on sample entropy and ELM-adaboost[]]. Journal of Vibration and Shock, 2016, (13): 
125-133. 

[27] Xu Y, Wang Q, Wei Z, et al. Traffic sign recognition based on weighted ELM and AdaBoost[]J]. 
Electronics Letters, 2016, 52(24): 1988-1990. 

[28] Li K, Kong X, Lu Z, et al. Boosting weighted ELM for imbalanced learning[J]. Neurocomputing, 
2014, 128: 15-21. 

[29] Freund Y, Schapire R E. A desicion-theoretic generalization of on-line learning and an 


application to boosting[C]. European conference on computational learning theory, 1995: 23-37. 


[30] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for 
semi-supervised learning[C]. Proceedings of the 48th annual meeting of the association for 
computational linguistics, 2010: 384-394. 

[31] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector 
space[J]. arXiv preprint arXiv:1301. 3781, 2013. 

[32] Sebastiani F. Machine learning in automated text categorization[]]. ACM computing surveys 
(CSUR), 2002, 34(1): 1-47. 


(通讯 作者 : 李 明 ^ E-mail:limingGmagicalthink. com) 


作者 贡献 声明 : 

李 明 : 提出 研究 思路 ， 设 计 研 究 方案 ， 进 行 实验 ， 论 文 起 草 ; 
肖 培 伦 ， 数 据 的 获取 、 提 供与 分 析 ， 进 行 实 验 ; 

顾 心 盟 ， 进 行 实验 ; 

IKE: 论文 最 终 版 本 修订 。 


